Multilingual Compound Splitting (Segmentation Multilingue des Mots Composés) [in French]
نویسندگان
چکیده
Résumé La composition est un phénomène fréquent dans plusieurs langues, surtout dans des langues ayant une morphologie riche. Le traitement des mots composés est un défi pour les systèmes de TAL car pour la plupart, ils ne sont pas présents dans les lexiques. Dans cet article, nous présentons une méthode de segmentation des composés qui combine des caractéristiques indépendantes de la langue (mesure de similarité, données du corpus) avec des règles de transformation sur les frontières des composants spécifiques à une langue. Nos expériences de segmentation de termes composés allemands et russes montrent une exactitude jusqu’à 95 % pour l’allemand et jusqu’à 91 % pour le russe. Nous constatons que l’utilisation de corpus spécialisés relevant du même domaine que les composés améliore la qualité de segmentation.
منابع مشابه
Multilingual Summarization Experiments on English, Arabic and French (Résumé Automatique Multilingue Expérimentations sur l'Anglais, l'Arabe et le Français) [in French]
The task of multilingual summarization aims to design free-from language systems. Extractive methods are in the core of multilingual summarization systems. In this paper, we discuss the influence of various basic NLP tasks: sentence splitting, tokenization, stop words removal and stemming on sentence scoring and summaries' coverage. Hence, we propose a statistical method which extracts most rel...
متن کاملA dictionary and a grammar of French compounds (Un dictionnaire et une grammaire de composés français) [in French]
The paper introduces two resources for NLP, available with a GPL license: a dictionary of French compound words and a NooJ grammar which specifies a subset of compound patterns. Mots-clés : open source, ressources, dictionnaire, grammaire, mots composés
متن کاملDAnIEL, parsimonious yet high-coverage multilingual epidemic surveillance (DAnIEL : Veille épidémiologique multilingue parcimonieuse) [in French]
DAnIEL, parsimonious yet high-coverage multilingual epidemic surveillance DAnIEL is a multilingual epidemic surveillance system. DAnIEL relies on a parsimonious scheme making it possible to process new languages at small cost. MOTS-CLÉS : extraction d’information, recherche d’information, veille, multilinguisme, genre journalistique, grain caractère.
متن کاملS XPipe 2: an architecture for surface preprocessing of raw corpora
This article introduces SXPipe 2, a modular and customizable chain aimed to apply to raw corpora a cascade of surface processing steps. Necessary preliminary step before parsing, they can be also used to prepare other tasks. Developed for French and for other languages, SXPipe 2 includes, among others, various named entities recognition modules in raw text, a sentence segmenter and tokenizer, a...
متن کاملStratégies discriminantes pour intégrer la reconnaissance des mots composés dans un analyseur syntaxique en constituants
We propose two discriminative strategies to integrate compound word recognition in a parsing context: (i) compound pregrouping with Conditional Random Fields before parsing, (ii) reranking parses with a maximum entropy model after parsing. These discriminative models integrate features dedicated to compounds, some of theme being computed from external lexical resources. We show that the pregrou...
متن کامل